揭秘耶鲁大学让AI通过视觉回顾实现交互式推理的突破性方法
这项研究由耶鲁大学的Jiwan Chung、Junhyeok Kim、Siyeol Kim、首尔国立大学的Jaeyoung Lee以及耶鲁大学的Minsoo Kim和Youngjae Yu共同完成,于2025年5月24日发表在arXiv预印本平台上(arXiv
这项研究由耶鲁大学的Jiwan Chung、Junhyeok Kim、Siyeol Kim、首尔国立大学的Jaeyoung Lee以及耶鲁大学的Minsoo Kim和Youngjae Yu共同完成,于2025年5月24日发表在arXiv预印本平台上(arXiv
在互联网世界中,验证码(CAPTCHA)就像是网站的门卫,守护着网络服务不被机器人滥用。然而,对于那些旨在自动化网页任务的人工智能助手来说,这些验证码却成了一道难以逾越的障碍。2025年5月,来自MBZUAI(穆罕默德·本·扎耶德人工智能大学)VILA实验室和
计算机辅助设计(CAD)是现代工程和制造业的核心,它让我们能够创建精确且可编辑的3D模型。然而,手动创建CAD模型需要专业技能和大量时间。如何让计算机自动从现有物体中重建CAD模型,一直是研究人员追求的目标。2025年5月,来自AIRI研究院、莫斯科罗蒙诺索夫
基于国产三维云架构CAD皇冠CAD(CrownCAD)平台,构建了“大模型底座-多模态智能体-行业应用”三层AI创新体系,为机械制造、航空航天、汽车电子等七大领域提供全链路智能化解决方案。
近日,AI领域再度传来重磅消息。新型社交平台Soul App的技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generat
国泰海通发布研报称,维持传播文化业“增持”评级,建议关注具备优秀产品布局和潜力的公司。2024年以来,随着AI技术完善和趋于稳定,在应用端的效果也开始有所体现,部分赛道和产品已经有初步成绩。AI应用发展经历了“纯文字-静态图像/声音-动态视频”的过程,赛道也相
在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-P
在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。
据Telecomtalk 6月3日报道,印度科学技术部国务部长Jitendra Singh在印度人工智能峰会BharatGen Summit上发布了印度首个自主研发的多模态大型语言模型(LLM)Bharat Gen。
近日,首尔国立大学的研究团队Jaewoo Ahn、Heeseung Yun、Dayoon Ko和Gunhee Kim在arXiv上发表了一篇引人深思的研究论文,题为《Can LLMs Deceive CLIP? Benchmarking Adversarial
这一成绩不仅刷新了国内AI模型在国际多模态测评中的最高得分纪录,更超越谷歌、OpenAI等全球顶尖团队,与商汤科技SenseNova(80.4分)、上海AI LAB InternVL(79.1分)占据前10名的半壁江山,展现了中国在通用人工智能领域的突破性进展
行业主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 腾讯 ( 00700.HK, TCEHY ) ;科大讯飞 ( 002230.SZ ) ;万兴科技 ( 300624.SZ ) ;三六零
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型
多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关
智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
国家知识产权局信息显示,上海畅致文化传播有限公司申请一项名为“一种基于多模态AI的用户身份真实性验证方法及系统”的专利,公开号CN120068037A,申请日期为2024年12月。